#World Labs
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
巨大進步!李飛飛“空間智能”最新成果,單個圖像生成大規模3D世界,更持久、可導航、可控制
今天,“AI教母”、斯坦福大學教授李飛飛創辦的AI公司空間智能(World Labs)發佈了一項重磅新成果:Marble模型,可從單個圖像生成持久的3D世界,比以往更大更好。李飛飛表示:“這是3D世界生成領域取得的巨大進步,它讓我驚嘆不已!”空間智能團隊在介紹部落格中提到,這次提高了模型生成清晰、連貫的幾何圖形來代表完整的3D環境的能力,並以多種多樣的風格想像世界。使用者只需要給定一個圖像或文字提示,Marble模型就能生成一個3D世界,還可以讓你隨心所欲地探索——沒有時間限制、沒有變形、沒有不一致性。借助World Labs提供的開源渲染庫Spark,愛好者和建構者可以將生成的3D世界匯出為高斯分佈圖,並將其用於後續商業項目,例如建構基於Web的3D體驗,在桌上型電腦、筆記型電腦、移動裝置和VR頭顯上進行高效渲染。目前該公司在Marble.worldlabs.ai推出Marble模型的有限訪問Beta預覽版,使用者可以在此頁面查看和建立3D世界。技術層面的大升級據瞭解,Marble模型採用了更優的幾何結構,通過建立可導航的3D場景解決方案,讓使用者能像電影製作人一樣在連貫一致的3D場景中規劃鏡頭。對於視覺創作者而言,在連貫一致的3D世界中自由導航與互動是眾多工作流程和應用場景的核心。Marble生成的3D世界支援在使用者瀏覽器中免費進行自由視點導航,與深度圖或點雲提供的有限3D體驗不同,該模型生成的世界具有更豐富的幾何複雜性,能生成更完整的3D世界,讓使用者可以窺見輸入視角之外的景象。不過,官方表示,當前的模型只專注於建立3D環境,處理孤立或核心物體例如人物或動物還不支援。一起來看看部分使用者生成的效果:其次,Marble支援的生成風格更加多樣化,既能生成超寫實的環境,又能創造風格化的動漫世界,為遊戲或創意工作提供更多可能。生成式AI最令人興奮的特質之一是在創意過程中能自由迭代視覺效果。Marble模型可將多種不同風格的輸入內容轉化為3D形式——從扁平色彩卡通到寫實細膩的圖像,讓創作者能通過探索迭代找到最適合項目的虛擬世界。最後一個技術特徵是實現了大規模持久化的3D幾何重建,初步展示了使用者將生成空間組合成更宏大環境時的可能性——憑藉模型實現的風格一致性與幾何連貫性,Marble模型現已能流暢導航、瀏覽此類擴展世界,並為宏大場景構想多種應用方案。產品發佈上線後,有使用者問這與Google Genie項目相比如何?李飛飛回覆說,Marble生成的世界將永久存在,使用者可以隨心所欲地在世界中導航,無需支付任何費用。不斷進化的空間智能有早期使用者表示Gen-AI讓將創意轉化為人們可以分享的體驗變得異常簡單,以前需要數週時間或收集現有素材才能完成的事情,現在只需使用幾個小時就能搞定了。前Google創意技術專家、獨立開發者Cristian Peñas表示,Marble是目前使用高斯濺射生成3D世界的最佳工具。也有使用者試用後稱讚,使用介面簡單,生成質量相當不錯且驚豔,細節清晰,沒有明顯的抖動或變形,光照氛圍感也很好。在當下日新月異的AI市場中,World Labs團隊更新產品和模型的速度並不算快,上一次推出首個能夠從單張圖片生成3D世界的AI系統還是在2024年12月初,去年9月World Labs曾宣佈完成一輪2.3億美元融資,不過具體估值並未公開。好在,World Labs的Marble模型在技術上仍處於全球第一梯隊,特別是在“從單圖像生成具有高度一致性的可導航3D場景”這一細分任務上表現突出。空間智能旨在讓機器不僅能“看見”世界,更能深度理解物理世界的結構、規律並進行互動和創造,完整的空間智能需要有機整合三維感知、空間推理以及多模態生成。李飛飛曾在其個人社交平台上表示,空間智能是AI中難以解決的一個問題,但這項技術可以賦能和實現創造、設計、學習、AR/VR、機器人等領域的無數可能。她認為“空間智能”(Spatial Intelligence)是人工智慧(AI)邁向通用人工智慧(AGI)的關鍵與核心,若AI不能理解三維世界,就無法實現真正的AGI。四面而來的市場壓力World Labs所主攻的空間智能方向目前正成為熱門技術賽道,國內外廠商正在紛紛佈局,從各個維度展開競爭。例如GoogleDeepMind近期發佈的超真實世界模型Genie 3,是首個允許即時互動的世界模型,在生成內容的連貫性上堪稱質的飛躍,同時在通用性、物理規律、視覺記憶方面實現全新水平。輝達專門設有空間智能實驗室(NVIDIA Spatial Intelligence Lab),該公司打造的Omniverse平台,逐步升級為支援工業協作、元宇宙、人形機器人等場景的空間智能平台,實現跨裝置、跨軟體的即時協同與物理模擬。國內廠商如崑崙萬維在8月份發佈了首個前饋全景3D場景生成模型Matrix-3D,具備場景全域一致、生成場景範圍大、生成高度可控等特點,能根據文字和圖像輸入生成幾何結構精準、遮擋關係自然、紋理風格統一的3D場景,還支援自訂範圍與無限擴展。騰訊在9月開放原始碼的HunyuanWorld-Voyager,宣稱是業界首個支援原生3D重建的超長漫遊世界模型,一張圖就能生成3D場景和移動視角視訊,在李飛飛團隊發佈的世界模型基準測試WorldScore上綜合能力出色。作為“杭州六小龍之一”的群核科技,在今年的技術開放日上推出了空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,可根據文字描述、參考圖像和3D空間佈局,生成具有時空一致性的多視角圖像,並支援進一步生成3D高斯(3DGS)場景並渲染漫遊視訊。隨著競爭對手增多,World Labs想要獲得商業成功的挑戰正在加大。這不僅取決於能否持續保持原生空間智能技術的領先優勢,也在於相比競爭對手能否建構強大的開發者生態和產品整合,使其生成技術能輕鬆進入主流工具創作流程,並實現可規模化的商業落地模式。 (頭部科技)
李飛飛最新NoPriors專訪:空間智能、世界模型與無畏的創造
本次訪談深入探討了李飛飛博士的最新動向與深刻見解。她詳細闡述了其新公司 World Labs 的核心使命——開發“空間智能”與3D生成式基礎模型,並解釋了為何這項技術對實現完整的人工智慧至關重要。訪談回顧了 ImageNet 的誕生歷程,強調了資料、遠見和無畏精神在科學突破中的決定性作用。最後,李飛飛博士分享了她對機器人技術、跨學科團隊建設以及以人為本的AI未來發展的樂觀願景,強調AI的最終目標是賦能於人,解決醫療等領域的重大挑戰。核心觀點空間智能是AI的基石:人工智慧若要完整,就必須具備理解、推理和生成3D世界的能力,因為這是我們所處物理世界的基本屬性。建構3D世界模型是下一個前沿:繼語言模型之後,攻克3D生成式基礎模型是解鎖大量應用(從創意設計到機器人技術)的關鍵,也是當前AI領域最困難的問題之一。無畏精神驅動創新:無論是建立ImageNet還是創辦新公司,敢於挑戰不確定性、大膽假設的“無畏”精神是推動科學和技術突破的核心動力。AI的終極目標是賦能人類:技術應以人為本,作為協作工具來增強人類的能力,以應對醫療、教育等領域的複雜挑戰,促進社會福祉。資料與模擬至關重要:高品質、多模態的資料(包括被低估的觸覺資料)和高保真模擬環境,對於訓練更強大的機器人和通用智能體是不可或缺的。序幕:為何現在創業?Sarah: 大家好,聽眾朋友們。今天我們的嘉賓是李飛飛博士,她是電腦視覺和深度學習領域的先驅。她建立了ImageNet,這個開創性的資料集幫助引發了深度學習革命。李飛飛是史丹佛大學教授,也是史丹佛以人為本人工智慧研究院的聯合主任。她還曾領導Google雲人工智慧部門,為國際政策制定者提供諮詢,最近還聯合創辦了World Labs,一家致力於開發空間智能人工智慧的公司。飛飛,感謝你今天加入我們。李飛飛: 謝謝邀請。Sarah: 這會很有趣。在過去的20年裡,您對科學和政策做出了非凡的貢獻。我先從最大的問題開始。比如,為什麼現在創業?李飛飛: 因為在我內心深處,我渴望創造。我認為這是一個至關重要、充滿樂趣和令人興奮的時刻,可以建構一些每個人都能使用的非凡技術。我對空間智能以及能夠賦能如此多的人和如此多的用例的3D世界模型深信不疑。而且我認為這將會非常令人興奮。而且我可以與一個極其、極其傑出的年輕技術專家團隊一起做到這一點。Sarah: 我想回到你正在合作的人這個問題上來,因為我認識你的一些聯合創始人,而且不久前我還在拚命地試圖說服他們創辦一家公司。然後他們說,哦,不,我們現在和 Fei-Fei 有一個更大的使命。定義空間智能Sarah: 什麼是空間智能?你能為更廣泛的受眾定義一下嗎?李飛飛: 對我來說,空間智能是理解、推理、互動和生成3D世界的能力,因為無論你怎麼說我們可以投影它,我們的世界從根本上來說都是3D的。而且它是3D的,因為物理上它就是3D的。而且在數字層面,如果存在真正的3D呈現,那麼我們可以更容易地實現很多事情,無論是設計、創造、導航,還是模擬,或是體驗AR、VR,對我來說,這些都是空間智能的一部分。再次強調,我認為真正讓我興奮的是人類擁有空間智能。這是我們核心智能能力的一部分。動物也擁有空間智能。整個進化過程也與空間智能的進化緊密相連。所以它是如此的根本。如果沒有空間智能,人工智慧將是不完整的。李飛飛: 這如何轉化為你正在用你的公司做的事情?或者說,你能分享一些關於這相對於你正在建構的東西意味著什麼的資訊嗎?李飛飛: 是的,我們正在破解人工智慧領域最難的問題之一,即建構從根本上是3D的世界模型。因為一旦你攻克了這個問題,你就可以解鎖大量的空間智能問題。據我們所知,我們是第一家解決這個問題的公司,即3D生成基礎模型問題。世界模型的願景與挑戰Sarah: 我有很多問題。但是,既然你首先將這一點描述為3D對於理解世界的至關重要性,這是否意味著你認為,World Labs或其他學術界或公司建立的世界模型,將來會像現實一樣精準,比如能夠呈現物理規律並理解世界,從而使我們能夠做更多的事情?李飛飛: 是的,它應該是現實般準確或合理的。所以你可以創造一個奇幻的世界,但它應該是合理的,因為它的幾何結構和物理特性需要是合理的。而這對於空間智能來說是至關重要的。Sarah: 這是否意味著你有一個特別的觀點,從神經科學的角度來看,比如視覺智能有多麼重要?我的意思是,你一直是電腦視覺領域的領導者,對吧,但是視覺智能與大型語言模型和文字智能相比,有多麼重要?李飛飛: 實際上,我的確有。我認為從神經和認知科學的角度來看,空間智能是進化必須為動物解決的一個非常困難的問題。真正有趣的是,我認為動物在某種程度上解決了這個問題,但並沒有完全解決。這是最難的問題之一,因為動物必須解決的問題是什麼?動物必須進化出在某種程度上收集光線的能力,我們通常稱之為眼睛。然後通過這些眼睛收集的光線,它們必須在某種程度上於腦海中重建一個3D世界,以便它們能夠導航並做事情。當然,它們可以互動。對於人類來說,我們在操作能力方面是最強的動物,我們可以做很多事情。所有這些都是空間智能。對我來說,這僅僅根植於我們的智能。有趣的是,即使在動物中,這也不是一個完全解決的問題。我們,例如,就人類而言,對吧?如果我現在讓你閉上眼睛,畫出或建構一個你周圍環境的3D模型,這並不容易。Sarah: 在經過訓練之前,我們沒有那麼強的能力來生成極其複雜的3D模型。李飛飛: 你知道,我們中的一些人,無論是建築師、設計師,還是只是接受過大量訓練且天賦異稟的人。那是一件很難的事情。想像一下,你可以在指尖上更輕鬆地完成它,並且允許更流暢的互動性和可編輯性。對人們來說,那將是一個完全不同的世界,絕非雙關語。AI缺失的下一個領域李飛飛: 是否還有其他像空間智能這樣的大領域,你覺得從模型的角度來看,它還沒有得到充分的發展,或者其他你認為普遍存在的缺失,隨著我們建構這種人工智慧的未來,我們應該隨著時間的推移關注,或者人們應該建構出來?我只是想知道,除了3D和世界生成等其他大問題之外,因為感覺我們已經隨著時間的推移解決了一些大問題,還有其他一些問題我們正在努力解決。李飛飛: 我們正在某種程度上解決語言問題。我認為語言問題在很大程度上已經解決了。而3D,在我看來,和語言一樣至關重要且困難。那麼還有什麼問題沒有解決呢?我的意思是,整個情商領域是我甚至不知道該如何著手解決的問題。李飛飛: 我認識很多人都沒能解決這個問題。李飛飛: 所以,那才是實現通用人工智慧(AGI)的時候。Sarah: 我可以告訴你,用於訓練的資料不會來自矽谷的人們。不要低估矽谷。我會把自己歸為這一類,但我認為我們可能需要更廣泛的人群參與。李飛飛: 是的,沒錯,我同意。Sarah: 但這些是三個大類。李飛飛: 說實話,我不知道,你們怎麼看,伊蘭和莎拉?李飛飛: 我認為這很大程度上取決於你在每個模型中封裝的內容。所以我同意你關於這三個方面的框架。然後像某些東西,你知道,空間智能,我假設它也深入到不同類型的物理模擬和世界模擬中。而且,你知道,就像那些是很大的領域,我認為很多人沒有在研究,但我認為它們真的很有趣或很重要。而且存在著它的宏觀和微觀尺度。微觀尺度最終會變成材料科學和其他非常不同的東西,與你所說的內容不同,它更像是分子建模,或者...李飛飛: 對。並且這超出了當前人工智慧的定義,但我認為它們會因此而得到增強。當然,有機器人技術,但機器人技術很大程度上是一個系統整合問題,就像,你知道,即使你觀察動物,也不僅僅是大腦中的計算本身。李飛飛: 是的,相對於動物擁有的特定系統,很多這些事情在空間智能方面似乎更加分散。而且在某些情況下,正如你所說,並不像人們想像的那麼集中。因此,開始根據有機體中更分散的智能模型,而不是中樞神經系統,進行思考是非常有趣的。但是,是的,我認為我認為這是非常有趣的事情。機器人、模擬與資料金字塔Sarah: 飛飛,你也做過機器人技術和類物理智能領域的工作。我認為,對於機器人基礎模型和驅動的資料層級來說,你知道,人們當然想使用視訊,對吧?因為那是我們可以獲得的。關於模擬以及今天你能從中獲得多少,存在一個很大的問題。也許人們沒有看到未來可供我們使用的質量和物理特性。然後還有,你知道的,接近具身性的,比如不同形式的遙操作,以及類似具身資料收集。這是你腦海中的層級結構嗎?或者你認為人們低估了模擬和世界模型在未來的作用?李飛飛: 是的,好問題。首先,正如你所說,我的確從事機器人研究工作,尤其是在我在史丹佛的實驗室裡。我毫不懷疑人類將進入一個與機器人共存的時代。而且,“機器人”一詞並不一定指人形機器人。機器人可以呈現各種各樣的形式和形狀。實際上,幾年前,我的實驗室寫了一篇非常有趣的論文,關於形態智能,即智能體的形態實際上可以通過最佳化它們試圖完成的任務來改變。所以我們應該比僅僅想像人形機器人更有想像力。說了這麼多,關於如何訓練機器人,你提到了整個資料,有些人稱之為資料金字塔或資料蛋糕之類的。我同意。我認為這將是許多不同形式資料的混合。我還認為模擬被低估了。實際上,很多專家和業內人士並沒有低估它。如果你看看很多機器人公司,他們都在研究模擬和合成資料。我也認為我們必須意識到,與語言模型甚至與空間智能基礎模型不同,機器人是一個高度多模態的系統。我認為真正被低估的是觸覺,依我之見。如果我們想要進行操作,而不僅僅是導航,觸覺就顯得尤為重要。我認為將觸覺真正整合到視覺、感知和空間資料中的能力是絕對關鍵的。機器人的形態與未來李飛飛: 你說過的一件事我覺得非常有趣,那就是機器人可能適應或採用那些不同的形態形式。關於潛在的未來,人們提出了兩種相互對立的論點。一種論點是,從供應鏈的角度以及管理建構和製造規模的角度來看,形態因子的數量將會大大減少。另一種論點是,專業化的經濟價值非常高。因此,隨著我們走向機器人驅動的未來,將會出現成千上萬種不同的形態因子。對於我們可能在這兩種觀點之間最終落腳於何處,你有什麼看法?李飛飛: 我認為我們正處於一個梯度下降的過程中,最終目的是最佳化生產力和效率。我的假設是,不同任務的需求如此之多,以至於只有極少數的形態或堅持一種形態是能源效率低下的。並且許多工可以並且應該由能源效率更高的形態因子來完成。只是一個極端而瑣碎的例子。如果我們把機器人放到水下,它們就不應該做成人形。它們最好是魚的形狀,對吧?想想能源效率就明白了。飛行也是一樣。我認為人形……我們的飛機正變得越來越像機器人。3D生成模型的近期應用Sarah: 所以我確實認為會存在多樣性。機器人技術是未來一個潛在的應用領域。首先你是一位科學家,但同時,你也參與了Twitter董事會與初創公司相關的工作。你能想像到那些近期可實現的、用於生成3D世界的商業應用?李飛飛: 我相信創造力是一個非常令人興奮的領域,在這個領域中,人類可以通過人工智慧和空間智能獲得超能力。在這裡,我將它類比於軟體工程。如果你看看當今大型語言模型在軟體工程領域的成功,包括像Cursor和Windsurf這樣的應用程式以及所有這些,你看到的是人工智慧和人類之間的大量協作。而且這種協作體現在不同的技能水平等等方面。我認為創造力也會類似,無論是設計師、3D藝術家、視覺特效藝術家,甚至是行銷人才和遊戲開發者,在設計和創造3D空間方面都有大量的需求。即使對於訓練有素的專業人士來說,這從根本上說也是一個非常困難的問題,如果我們能正確地進行協作,擁有一個協作者將會非常有趣。所以我將創造力看作是一個非常令人興奮的領域。我也確實認為,我們在元宇宙或增強現實、虛擬現實方面所等待的很多東西是內容創作。我理解硬體本身需要不斷發展,但我也認為在軟體方面,我們正在尋找內容創作。這自然而然地適用於3D建模和3D或生成式空間模型。這是另一個值得關注的有趣領域。Sarah: 你對於世界模型是否是可擴展強化學習的一個有趣答案,以實現更具泛化能力的智能體,有什麼強烈的觀點嗎?李飛飛: 實際上,我的確認為它是這樣的。就像我說的,如果沒有空間智能,人工智慧是不完整的,因為人類是在3D世界中互動的。在數字世界中,我們需要各種各樣的互動。你知道,以設計為例。這是一個非常深刻的領域,你知道,當我們思考設計時,我們會在腦海中最佳化很多東西,無論是美觀、效率還是最佳化等等。這非常自然地適用於強化學習的設定。Sarah: 我想,在嘗試沿著這條道路,即設計和訓練世界模型的過程中,最大的挑戰是什麼?我猜想其中之一是,例如,你研究過圖像,研究過視訊,但是我們擁有圖像和視訊,而我們沒有很多,你知道,像你正在建構的那樣,以某種格式呈現的3D世界。李飛飛: 是的,資料絕對是一個挑戰。你完全說對了。你知道,要建立世界模型、3D基礎模型,我們需要越來越複雜的資料工程、資料採集、資料處理和資料合成。所以,我非常羨慕我的自然語言處理大語言模型同事們,他們在網際網路上擁有如此豐富的資料,而我們不一定有這種優越條件。所以,這絕對是一個挑戰。另一個挑戰是3D,這有點諷刺,對吧?我們每個人每天都在使用3D,就像在很多場合一樣。基本上,你睜開眼睛,你所體驗的整個生活都是3D的。即使我們一直在電腦上打字或者盯著螢幕,但與語言相比,它仍然不是一種更容易交付到人們手中的形式因素。語言是如此簡單。而且它也是一種非常主動的形式……它不是被動地觀看。沒有人醒來說,我就要坐在這裡看3D,你知道嗎?所以,這給產品化以及如何以正確的方式進行產品化帶來了挑戰。你曾經玩過《第二人生》之類的遊戲嗎?Sarah: 或是其他什麼遊戲?李飛飛: 我不是一個遊戲玩家,但是我的孩子們喜歡《我的世界》。Sarah: 我本來想問你,是否存在你想要體驗或想像的世界。李飛飛: 莎拉,這是個好問題。你知道,我渴望看到各種各樣的世界。我喜歡看到我未曾見過的世界。例如,像不斷放大,進入微觀世界,或者,你知道的,進入引擎的內部,瞭解引擎的實際運作方式。我知道,當然,我理論上知道它是如何運作的,但是親眼看到它,體驗它,甚至,你可能會覺得好笑,我想進入洗碗機內部。只是體驗那是什麼。如果我們能夠建立任何事物的世界模型,所有這些都可以以虛擬方式完成。回顧:ImageNet的誕生Sarah: 好的,我想阿拉德和我都很想談談您過去的職業生涯,以及可能為正在進行研究或試圖在人工智慧領域產生影響的人提供的一些見解。在此之前,我問安德烈·卡帕斯我應該問你什麼。他說,你知道,李飛飛在抱負和思考資料方面真的很神奇。你應該問問她關於她的博士學位,比如,以及與皮埃特羅一起建立那個一對一資料集的事情,因為它具有指導意義。所以我必須問問你這件事。李飛飛: 你知道,首先,我必須說,當你的學生比你更有名,取得的成就比你更多時,這總是最棒的事情。這讓我感到非常自豪。為安德烈感到非常自豪。我很驚訝他記得我的博士研究。所以,是的,這是真的。那,嗯,天那,要追溯到2003年左右,當時世界才剛開始觸及網際網路的皮毛,資料還算不上什麼。但從事電腦視覺研究時,我們,我的博士研究真的試圖讓物體識別發揮作用。那個問題就是,當你看到一張圖片時,要識別出貓、狗、微波爐、椅子等等所有東西。我們當時開始假設資料很重要,但我們毫無概念。沒有比例定律。我們不知道,你知道的,資料能走多遠。我們想要的只是,如果我們有一個機器學習演算法,無論是神經網路還是那時非常流行的貝葉斯網路,或者是支援向量機,我們需要一些資料來訓練。並且沒有資料可供訓練。作為一名博士生,你當然想畢業。然後,Pietro就說,這樣吧,Feifei,整理一個資料集。我,你知道,我當時在想,是的,我的確需要整理一個資料集,因為現有的每個資料集都太小了。我只是不太信服。然後Pietro和我一直在討論,你知道,到底是15個不同的東西還是30個不同的東西,然後更可怕的是,博士導師說了三位數100。我當時就想,你知道,這工作量太大了。但我內心深處知道,從數學的角度來看他是對的,為了推動模型泛化,我們需要足夠的資料,至少要足夠。所以,你知道,我確實在我的書《我所看到的世界》中寫到了這個過程,我偶然發現了一本詞典。而且那真的是為了我自己的英語學習,那本詞典,我想是韋氏詞典,如果我沒記錯的話,它只是隨機地包含了一些單詞的視覺描述。我甚至不知道他們遵循什麼規則,說實話,有些是花,有些是自行車,有些是狗。我當時就想,好吧,這實際上,你可以稱之為作弊或者工具。我抓取了101個這樣的詞語。這真的讓我博士生導師有點忍俊不禁,因為他會說,啊,是啊,你就是想比我要求的多做一點,你知道,想挑戰我。所以我就那樣做了。而且我得說,我仍然記得,我下載或者說,你知道,嘗試從Google下載,那時候Google還很新。而且那時候的Google圖片搜尋非常糟糕,你知道,和今天相比。我不得不做大量的清理工作。有段時間,我變得非常絕望。我直接讓我媽媽做圖片清理,因為我在電腦上寫了一個小介面。她不懂電腦,但至少她知道點選,點選。所以她幫我做了一些事情。職業生涯的決定性時刻李飛飛: 我的意思是,你在人工智慧領域擁有著最輝煌的職業生涯之一。而且正如你所說,你的許多學生也都同樣在整個領域、整個行業、甚至整個世界取得了非常偉大的成就。當你回顧迄今為止的職業生涯時,你會想到那兩三個時刻?當然,你的職業生涯還有很長的路要走。但我只是有點好奇。我的意思是,顯然,你在圖像和視覺識別相關系統以及各種方面都做了很多事情。但我只是有點好奇,比如,當你想到過去20年時,考慮到你所做的一切,什麼是最突出的?李飛飛: 哦,謝謝你問這個問題。當然,ImageNet是其中之一……ImageNet由多個時刻組成,從早期的掙扎和被告知我不會獲得終身教職,到真正意識到亞馬遜的Mechanical Turk來救援,再到AlexNet獲勝的那一刻。並且在幾年前,我和傑夫·辛頓在多倫多參加了一個活動。他當時公開表示,這件事是多麼具有決定性意義。他甚至有點抱歉,認為 ImageNet 沒有像神經網路那樣被廣泛認可。因此,這段歷程非常有意義。對於科學家來說,這種意義不在於認可或獎勵。而在於你做出了改變。就像那個沒人相信的猜想,那個沒人相信的假設,我們最終實現了它。這是其中一個線索。Sarah: 為了確保那些不熟悉的商界人士瞭解,ImageNet 是一個大規模的資料集,擁有數百萬張帶標籤的圖像,涵蓋數千個類別,而不僅僅是 101 個,對吧?1500萬張帶標籤的圖像。1500萬張已標註圖像。謝謝你,李飛飛。這促成了深度學習領域的驚人突破,特別是 AlexNet,以及電腦視覺領域整體的巨大進步。是的,極大地推動了機器視覺的發展。李飛飛: 我還記得在 2016 年或 2017 年,我曾經展示一張幻燈片,內容是人工智慧的歷史,或者,你知道的,那時主要是摺積神經網路 (CNN) 和循環神經網路 (RNN),生成對抗網路 (GAN) 才剛剛興起。我把 ImageNet 和 AlexNet 看作是人工智慧發展史上具有開創意義的時刻之一,是定義人工智慧進步的極少數事件之一。顯然,現在我們有了 Transformer 模型,或許還有擴散模型之類的,但那(ImageNet和AlexNet)確實是一個巨大的突破。李飛飛: 是的,謝謝。另一個讓我非常自豪的時刻是安德烈(指 Andrej Karpathy)和賈斯汀·約翰遜的畢業論文。在我看來,那是語言和圖像首次通過為視覺世界加入標題和編寫故事而融合的時刻,這對我來說意義重大,原因有兩點。其中之一是我真的以為,我可沒開玩笑,在我的博士生涯結束時,我認為如果我能活到100歲,那才是我們或許能夠解決的問題。也就是圖片的敘事。所以我進入我的職業生涯,就像我第一年當助理教授一樣,心想著,好的,我要做ImageNet來解決物體識別問題。然後我將用我餘下的整個職業生涯來解決這個敘事問題。然後當Andrej,以及稍晚些的Justin Johnson進入我的實驗室時,那是大約2013年、2014年,深度學習的開端。然後突然間,序列模型的組合,當時是LSTM,還不是Transformer模型,但是LSTM和CNN就這樣炸開了花。圖像描述工作,Andrej和我的工作與Google的工作一起,是最早完成並行布的。那對我來說真的是,我幾乎感到,它讓我如此自豪,我幾乎感到了一場危機,就像,我將在餘下的70年或65年裡做些什麼呢?所以這真的令人興奮,這個領域發展得如此之快,你知道的,發展得如此之快。對研究者的建議:無所畏懼Sarah: 我可以再問你一個關於這個問題的問題嗎,就因為你已經,你知道的,取得了如此驚人的進展,而且非常高效,對吧?就像你我之前線上下談過的那樣,你覺得在人工智慧研究領域存在超越大型企業資助實驗室的登月計畫和創造力,這一點非常重要,對吧。而且,你知道,你指出了幾個時刻,它們來自於創造力以及學術界的研究,你對人們有什麼建議,關於是否仍然存在這種機會?或者,你知道,從現在開始,一切都只是 100 億美元的訓練運行了。李飛飛: 我唯一的建議,我仍然在我的公司、我的實驗室裡這樣說,就是要無所畏懼。我認為科學家、技術專家和企業家都必須無所畏懼。你知道,最終你必須弄清楚,你是否需要 100 億美元的運行?或者到那時你來找莎拉申請資金。可能兩者都需要很多。是的。或者你必須弄清楚,你知道,我不知道,資料方面的問題。有時候,無畏是一種非常有趣的狀態,你可能有點妄想和瘋狂,但也可能僅僅是理性上的大膽。它介於兩者之間。因為如果你過於理性,就顯得不夠勇敢。你就無法發現足夠大的問題。但如果你完全瘋癲,那麼我不知道,可能會出現很多問題。所以要無畏。要勇敢。對我來說,即使我已經這麼老了,我仍然是這樣感覺的。我創辦了我的初創公司WorldLabs,是因為我想無畏地解決空間智能這個問題。Sarah: 作為解決問題的一部分,隨著時間的推移,你已經與世界上一些最好的AI研究人員和最好的工程師合作。招募無畏者:建構多元化團隊李飛飛: 你如何在你公司的背景下看待這件事?比如,你們正在嘗試招聘那種類型的人?目前有空缺職位嗎?還有,資料看來這是一支非常棒的團隊。我只是好奇,你們想增加那種類型的人,以及你們如何隨著時間的推移考慮這件事?李飛飛: 是的,我們有空缺職位,並且目前我們非常希望為公司招聘最優秀的工程師以及產品思考者。所以,如果你是一名工程師、人工智慧研究員或產品人才,並且熱衷於加入最有才華的團隊並解決這個問題,請加入我們。那麼,我們招聘什麼樣的人呢?首先,我們確實招聘具有思維多樣性的人。這就是為什麼,你知道,你們稱我們為人工智慧公司,但如果你深入瞭解,我們會發現我們有電腦圖形學專家。我們擁有電腦視覺專家。我們擁有資料專家。我們擁有,你知道的,生成式人工智慧專家。我們擁有機器學習基礎設施專家。我們擁有最佳化專家。因此,聘用多元化且真正有才華的團隊至關重要,因為像空間智能這樣艱巨的問題並非同質化問題。解決這個問題需要來自各種背景的人才。然後我也尋找無畏精神。李飛飛: 你如何做到這一點?例如,你如何識別某人的背景或思維過程中是否具有無畏精神?李飛飛: 這是他們的背景決定的。你和他們交談。你能感覺到某人是否無所畏懼。你知道,你能感覺到是什麼驅動著他們。你知道,你能感覺到他們提出的問題。如果他們開始問你很多關於,我不知道如何完成這件事的問題。我的意思是,當然,你必須問這些問題,因為你想完成它。但如果你感覺到這來自於害怕解決問題的角度,那就不是無所畏懼。但那些無所畏懼的人,他們富有創造力。他們有雄心壯志。他們並不畏懼不確定性或未知。我真的很喜歡這一點。終極願景:以人為本的人工智慧Sarah: 嗯,我想阿拉德和我,你知道,我們努力做與無畏之人做生意的生意,並且希望那些人在技術上富有創造力。最後一個更廣泛的問題想問您,因為我認為您工作的一個重要部分也在於思考如何將更多人引入人工智慧領域,您知道,共同指導史丹佛以人為本人工智慧中心。如果您設想一下,您知道,不是為了用書開玩笑,但如果您設想一下幾年後,在您上一組預測之後的世界,您對以人為本的人工智慧最樂觀的看法是什麼?李飛飛: 是的,謝謝您提問。事實上,我職業生涯中另一點讓我感到非常自豪的是創立了以人為本人工智慧研究所,HAI,以及不斷朝著這種思維方式邁進。我想建構一個人工智慧協作並賦能於人的世界。我仍然相信我們的世界,我們人類的世界需要以人為本,你知道,在那裡,愛、關係,以及各個社群的繁榮。這些都非常重要,公正也是,這些都是非常重要的價值觀。而且我認為任何機械裝置,無論是人工智慧、飛機還是生物技術,都不應該剝奪這些。但考慮到那些關鍵價值觀,擁有人工智慧來賦能我們真的非常重要,因為有太多尚未解決的問題。我曾經工作過的一個應用領域是醫療保健,例如在史丹佛大學,對吧?如果你看看醫療保健,從藥物發現到治癒疾病,到能夠覆蓋全世界人民的診斷,到能夠讓全世界人民都能獲得的治療,再到整個醫療保健服務,如何讓老齡化變得更好,如何照顧慢性疾病,如何處理精神健康,所有這些,我們不存在人類過剩之類的問題。我們缺乏幫助。你知道,我們缺乏科學發現,我們缺乏診斷,我們缺乏精準醫療,我們缺乏更安全有效的醫療保健服務和老齡化幫助等等。而這就是我相信的。我認為人工智慧是幫助人們的工具。Sarah: 是的,我認為我和很多人共同投資了一系列公司,我希望這些公司能在這方面發揮作用,從架橋到開放證據再到後期。但是正如你所說,存在著一個巨大的問題譜系。老實說,過去15年來,我對普遍的技術和醫療保健領域的應用並不那麼樂觀。但這一次感覺確實不一樣。實際上,這絕對是一件整體利大於弊的事情。李飛飛: 是的,實際上在此之前我創辦了一家數字健康公司。Sarah: 我希望,人們談論了幾十年的很多事情最終能夠實現。李飛飛: 看起來人工智慧是實現這一目標的絕佳傳遞機制。Sarah: 完全同意。好的,非常感謝您,飛飛。李飛飛: 太棒了。Sarah: 這次談話令人鼓舞,並且很高興更多地瞭解了世界實驗室。非常感謝。李飛飛:謝謝你,莎拉。非常感謝你邀請我。 (Web3天空之城)
黃仁勳參投,“AI教母”李飛飛完成2.3億美元初創融資
日前,斯坦福大學教授、AI教母李飛飛的空間智能創企World Labs(空間智能)首次現身發聲:Hello,World!我們是World Labs,一家空間智能公司,致力於建構大世界模型(LWM)來感知、生成3D世界並與之互動。 李飛飛說,“電腦是通過相機和相機背後的電腦大腦看見物理世界的,把這一視覺能力轉化為推理、生成和理解物理結構的互動,就是所謂的空間智能。” World Labs官網顯示,公司已籌集了超過2.3億美元(約16億元人民幣)資金。投資者包括機構a16z、NEA恩頤投資、加拿大風險投資公司Radical Ventures,還有黃仁勳執掌的輝達。一些AI領域的知名人士,如GoogleDeepMind首席科學家Jeff Dean和被稱為“AI教父”之一的前GoogleAI研究員Geoffrey Hinton等也都是其投資人。 除了明星投資團隊,World Labs的創始團隊也都是AI領域的實力派。李飛飛在今早接受彭博科技的電視採訪時透露,團隊目前有20人,總部位於舊金山。其中,聯合創始人有4位,分別是李飛飛、Jastin Johnson、Christoph Lassner和Ben Mildenhal,他們在電腦視覺和圖形學領域有著深厚的背景和豐富的經驗。例如,Johnson博士是李飛飛的學生,曾在斯坦福大學和密歇根大學任教,而Mildenhall博士則是神經輻射場(NeRF)技術的發明者。這樣的團隊組合為公司提供了強大的技術基礎和創新能力。